2025.10.15 | 像素级自监督ViT刷新生成基准；多智能体评测网文翻译新标尺

Update: 2025-10-15

Description

本期的 14 篇论文如下：

[00:20 ] 🖼 Advancing End-to-End Pixel Space Generative Modeling via Self-supervised Pre-training（通过自监督预训练推进端到端像素空间生成建模）

[00:53 ] 📚 DITING: A Multi-Agent Evaluation Framework for Benchmarking Web Novel Translation（DITING：面向网络小说翻译评测的多智能体基准框架）

[01:41 ] 🌐 Scaling Language-Centric Omnimodal Representation Learning（以语言为中心的跨模态表征扩展学习）

[02:29 ] 🎯 Detect Anything via Next Point Prediction（通过下一点预测检测万物）

[03:02 ] ⚡ FlashVSR: Towards Real-Time Diffusion-Based Streaming Video Super-Resolution（FlashVSR：迈向实时扩散式流媒体视频超分辨率）

[03:40 ] 🎯 Temporal Alignment Guidance: On-Manifold Sampling in Diffusion Models（时间对齐引导：扩散模型中的流形采样）

[04:16 ] 🧠 Dr.LLM: Dynamic Layer Routing in LLMs（Dr.LLM：大模型中的动态层级路由）

[05:03 ] 🎯 Spatial Forcing: Implicit Spatial Representation Alignment for Vision-language-action Model（空间强迫：面向视觉-语言-动作模型的隐式空间表征对齐）

[05:50 ] 🤖 ERA: Transforming VLMs into Embodied Agents via Embodied Prior Learning and Online Reinforcement Learning（ERA：借助具身先验学习与在线强化学习将视觉-语言模型转化为具身智能体）

[06:35 ] 🤖 Robot Learning: A Tutorial（机器人学习教程：从强化学习到多任务通用模型）

[07:27 ] 🔄 SRUM: Fine-Grained Self-Rewarding for Unified Multimodal Models（SRUM：面向统一多模态模型的细粒度自奖励机制）

[08:01 ] 🧠 Boundary-Guided Policy Optimization for Memory-efficient RL of Diffusion Large Language Models（面向扩散大语言模型的边界引导策略优化：内存高效的强化学习）

[09:06 ] 🖼 UniFusion: Vision-Language Model as Unified Encoder in Image Generation（UniFusion：将视觉-语言模型统一作为图像生成的编码器）

[09:43 ] 🧠 Memory as Action: Autonomous Context Curation for Long-Horizon Agentic Tasks（记忆即行动：面向长程智能体任务的自主上下文策展）

</figure>

【关注我们】

您还可以在以下平台找到我们，获得播客内容以外更多信息

小红书: AI速递

Comments

In Channel

2025.10.17 | AI眼镜预判式服务；视频生成补想象力

2025-10-1708:40

2025.10.16 | UniMoE一统语音音乐；注意力图点亮大模型推理

2025-10-1610:13

2025.10.15 | 像素级自监督ViT刷新生成基准；多智能体评测网文翻译新标尺

2025-10-1510:38

2025.10.14 | 量化误差变奖励，单卡训32B；面向多模态大模型的音视频评测基准

2025-10-1411:24

2025.10.13 | 桌面交互预训练解锁机器人潜能；统一模型赋予相机空间想象力

2025-10-1310:10

【周末特辑】10月第2周最火AI论文 | 递归小模型刷爆推理榜；未来经验点亮零奖励学习

2025-10-1211:39

2025.10.10 | 早期经验的Agent Learning；图文交错反思链跃升至24.9%

2025-10-1010:00

2025.10.09 | Ming-UniVision统一视觉词表；KV-Cache直连让大模型秒聊

2025-10-0911:46

2025.10.08 | TaTToo用外挂代码干翻大模型；4B小模型32步逼近闭源巨头

2025-10-0811:16

2025.10.07 | 论文秒变演讲；Video-LMM后训练突破

2025-10-0711:02

2025.10.06 | 15B小模型追平DeepSeek-R1；渐进蒸馏128 token省八成算力

2025-10-0611:02

【周末特辑】10月第1周最火AI论文 | Transformer长出大脑的壳；LongLive把长视频做成直播

2025-10-0512:14

2025.10.03 | LongCodeZip删得快准；迈向分钟级高质量视频生成

2025-10-0311:19

2025.10.02 | MCTS破局RLVR瓶颈；GEM开源智能体训练场

2025-10-0210:32

【月末特辑】9月最火AI论文 | 群体RL共享降本；SAPO让旧机也能训大模型

2025-10-0223:10

2025.10.01 | 自对弈零标注训练；MCP代理深度评测

2025-10-0111:21

2025.09.30 | SLA稀疏注意力砍算力；StableToken抗噪不训模

2025-09-3011:45

2025.09.29 | 实时长视频边聊边播；分位数基线稳控推理熵

2025-09-2910:55

【周末特辑】9月第5周最火AI论文 | Qwen3-Omni开源称王; 锁定视觉训解码，Baseer刷新阿文OCR；

2025-09-2712:37

2025.09.26 | SciReasoner八项全能；MMR1模糊区炼出开源多模态

2025-09-2611:17

00:00

2025.10.15 | 像素级自监督ViT刷新生成基准；多智能体评测网文翻译新标尺

#box-pro-ellipsis-176076534116757{-webkit-line-clamp:2;}2025.10.15 | 像素级自监督ViT刷新生成基准；多智能体评测网文翻译新标尺

2025.10.15 | 像素级自监督ViT刷新生成基准；多智能体评测网文翻译新标尺

2025.10.15 | 像素级自监督ViT刷新生成基准；多智能体评测网文翻译新标尺